Ładowanie danych i trening modelu

Załadowanie danych dotyczących przeżywalności pasażerów najpopularniejszej katastrofy statku pasażerskiego na świecie. Dane ściągamy wykorzystując api udostępnione przez serwis kaggle.com .

2 Predykcje dla poszczególnych obserwacji

3 Zastosowanie metody lime dla podanych obserwacji

4 Porównanie dekompozycji

Dla obserwacji 250 i 512 predykcję lokalne znacznie odbiegają od modelu lgbm, wyjaśnienia dla tych obserwacji mają niską wiarygodność. We wszystkich obserwacjach płeć ma największe znaczenie (żeńska dodatnią atrybucje, męska ujemną atrybucje). Można zauważyć, że intercept dla obserwacji o płci żenskiej jest niższy niż dla płci męskiej. Może wynikać to z faktu odwrotnego kodowania płci w zależności od rozważanej obserwacji tj. w przypadku mężczyzn mamy cechę one-hot-encoding "Sex=0" o dużej wadzę ujemnej a dla kobiet "Sex=1" o dużej wadzę dodatniej. Istotności zmiennych są zblizone we wszystkich analizach (wagi zmiennych kategorycznych rozważamy wraz z wartościami). Stąd możemy swteirdzić, że nasze wyjaśnienia są stabilne.

5 Trening sieci neuronowej

6 Porównanie wyjaśnienień dla tej samej obserwacji

Dla obserwacji nr 88. Fare w przypadku sieci neuronowej ma wagę 0.08 natomiast dla lgb 0.01. Natomiast cecha Pclass=1 dla sieci ma niewielką wagę dodatnią natomiast dla modelu drzewiastego sporą wartość dodatnią. Ta zależność może wynikać z tego, że te dwie cechy są komplementarne/ silnie zależne. Zmienna wiek ma atrybucję o różnych znakach w tych dwóch wyjaśnieniach. Współczynniki wolne w dwóch wyjaśnieniach mają podobny poziom.

Osoby płacące więcej niż 100 za bilet zawsze zasiadają w pierwszej klasie.